收藏!ChatGPT等大语言模型(LLMs)测试数据集--整理分享
引言
随着大语言模型(LLMs)的快速发展,如何量化地评估模型能力,就需要用到一些公认地数据集进行评测。基于之前分享地一篇文章ChatGPT输出不稳定!| 如何评估ChatGPT回答复杂问题的能力(东南大学&开源),作者今天整理了7个用于评估大型语言模型地数据集。另外数据集及对其论文,也整理到一块,有用到地小伙伴可以下载,具体下载方式放到最后。
WebQuestionSP数据集
「WebQuestionSP数据集」 是由微软构建的数据集,最早发布在ACL2016顶会上。它建立在斯坦福大学研究人员使用谷歌建议API创建的WebQuestion数据集之上。它通过使用相应的SPARQL查询语句注释每个答案并删除模糊、不清楚或无法回答的问题来增强原始数据集。WebQuestionsSP数据集包含SPARQL查询中4,737个问题的完整语义解析,以及剩余1,073个问题的“部分”注释(其中这些问题无法制定有效的解析,或者问题本身不好或需要描述性答案)。此版本还包括一个评估脚本和 STAGG 语义解析系统在使用完整语义解析进行训练时的输出。
ComplexWebQuestions数据集
「ComplexWebQuestions数据集」 是一个用于「测试模型回答复杂问题」的数据集,最早由特拉维夫大学发布在「NAACL2018顶会」上。它包含了大量复杂的问题,这些问题需要在多个web片段上进行推理并且可以以多种方式使用:1)通过与搜索引擎交互,这是该数据集的优势;2)作为阅读理解任务:该数据集包含12,725,989个与问题相关的网络片段,这些片段是在模型开发过程中收集的;3)作为语义解析任务:每个问题都与SPARQL查询配对,可以对Freebase执行SPARQL查询来检索答案。
GraphQuestions数据集
「GraphQuestions数据集」 是一个「特征丰富的事实型问答数据集」,最早由加州大学发布在「EMNLP2016顶会」上。该数据集的建设旨在探索如何系统地构建特征丰富的问答数据集,为社区提供具有丰富且明确指定问题特征的数据集。通过该数据集可以对 QA 系统进行细粒度的评估,即开发人员可以确切地知道他们的系统在什么样的问题上失败了,并相应地进行改进。GraphQuestions 由一组具有逻辑形式和真实答案的事实问题组成。数据集的当前版本(v1.0)包含 5,166 个问题,这些问题是基于大型知识库 Freebase 构建的。一系列问题特征被形式化,每个问题都有一个明确的特征规范:1)结构复杂性:问题中涉及的关系数量 ;2)功能:附加功能,如计数或最高级,例如,“Ned Stark 有多少孩子出生在 Winterfell?” 3)共同性:一个问题有多普遍,例如,“奥巴马出生在哪里?” ;4) 释义:同一个问题的不同自然语言表达 ;5)答案基数:问题答案的数量
GrailQA数据集
「GrailQA数据集」 是迄今为止「最大的具有高度多样性问题的众包KBQA数据」集(英文全称: Generalization for Question Answering on Knowledge Bases),最早由俄亥俄州立大学发布在www'21会议上。该数据集有64331个问题,用不同语法(即SPARQL、S-expression等)的答案和相应的逻辑形式进行了注释。除此之外该数据集的问题最多可以有4个关系,还可以选择有计数、最高级和比较的功能)。它的覆盖率也超过了Freebase;它广泛覆盖了3720个关系和86个Freebase域。它可以「用于测试KBQA中的三个级别的泛化:i.i.d,组成和零镜头」。
KQApro数据集
「KQApro数据集」 一个「用于复杂KBQA的大规模数据集」,由北京科技大学发布在2022年ACL国际顶会上,该数据由大约120,000个自然语言问题组成。针对该数据集,作者引入了一种组合式和可解释的编程语言KoPL来表示复杂问题的推理过程,对于每个问题都有相应的KoPL程序和SPARQL查询,这样KQA Pro就可以同时用于KBQA和语义解析任务。该数据集题目的多样性和挑战性很强,需要多种推理能力,包括复合推理、多跳推理、定量比较、集合运算等。
QALD-9数据集
「QALD-9数据集」 是一个标准的基于知识的「多语言问答」数据集(英文全称:Question Answering over Linked Data),由Usbeck et al.于2018年发布,该数据集由580个问题组成,涵盖大约13种语言。关联数据问答 (QALD) 挑战旨在提供最新基准,用于评估和比较最先进的系统。在过去的几年里,超过 40 个研究小组和他们的系统参与了九个 QALD 挑战。QALD 挑战面向所有从事关联数据查询、用于问答的自然语言处理、多语言信息检索和相关主题的研究人员和从业人员。主要目标是深入了解不同方法的优点和缺点,以及处理语义 Web 数据的大型、异构和分布式特性的可能解决方案。QALD数据集已有 8 年的历史,分别从QALD1到QALD9,目前QALD最新的数据集是QALD-Plus。
MKQA数据集
「MKQA数据集」 是一个开放域多语种问答评估数据集(英文全称:Multilingual Knowledge Questions and Answers),由苹果于2021年在ACL顶会上发布,。它包含 10,000 个 QA 对,跨越 26 种不同类型的语言(总共 260,000 个 QA 对)。MKQA 从 Natural Questions 数据集中选择 10k 个真实的英语查询,然后人工将它们翻译成 25 种其它语言和方言(包括:「中、日、韩、俄、英等我们熟知的语言」)。伴随这些查询翻译,我们将 NQ 的段落嵌入式答案跨度替换为高质量、独立于语言和检索的答案注释,直接链接到维基数据实体和一组有限的明确定义的值类型(数字、日期、字符串等)。
数据集及论文获取,后台回复:LLMs测试数据集
推荐阅读
[1] Language Is Not ALL You Need && 知识图谱的两种应用
[3] NLP不断突破界限,2023 十篇必读的顶级NLP论文!